严重的急性呼吸综合征冠状病毒2(SARS-COV-2)导致持续的大流行感染了21900万人的10/19/21,死亡率为3.6%。自然选择可以产生有利的突变,具有改善的健身优势;然而,所识别的冠状病毒可能是冰山的尖端,并且可能会随着时间的推移出现潜在的致命变体(VOC)。理解可能导致功能或免疫逃逸的新出现VOC和预测突变的模式是迫切需要的。在这里,我们开发了Phylotransformer,一种基于变压器的辨别模型,其与多头自我关注机制接合以模拟可能导致病毒生殖优势的基因突变。为了识别每个输入序列的元件之间的复杂依赖性,Phylotransformer利用高级建模技术,包括从Performer的正交随机特征方法(Hibl +)以及来自双向编码器表示的屏蔽语言模型(MLM)的新颖快速关注变压器(伯特)。从全球倡议检索的1,765,297次遗传序列培训,从全球范围内检测到所有流感数据(GISAID)数据库。首先,我们使用广泛的基线模型比较了新型突变和新颖组合的预测准确性;我们发现,这种具有统计显着性的每个基线方法都优势了。其次,我们检查了受体结合基序(RBM)的每个核苷酸中的突变预测,我们发现我们的预测是精确和准确的。第三,我们预测了N-糖基化位点的修饰,以鉴定与在病毒进化期间可能有利的改变的糖基化相关的突变。我们预计Phylotransformer可以引导积极的疫苗设计,以有效靶向未来SARS-COV-2变体。
translated by 谷歌翻译